智能论文笔记

Efficiently Computing Nash Equilibria in Adversarial Team Markov Games

Fivos Kalogiannis , Ioannis Anagnostides , Ioannis Panageas , Emmanouil-Vasileios Vlatakis-Gkaragkounis , Vaggos Chatziafratis , Stelios Stavroulakis

分类：机器学习

2022-08-03

计算NASH平衡策略是多方面强化学习中的一个核心问题，在理论和实践中都受到广泛关注。但是，到目前为止，可证明的保证金仅限于完全竞争性或合作的场景，或者在大多数实际应用中实现难以满足的强大假设。在这项工作中，我们通过调查Infinite-Horizon \ Emph {对抗性团队Markov Games}，这是一场自然而充分动机的游戏，其中一组相同兴奋的玩家 - 在没有任何明确的情况下，这是一个自然而有动机的游戏，这是一场自然而有动机的游戏，而偏离了先前的结果。协调或交流 - 正在与对抗者竞争。这种设置允许对零和马尔可夫潜在游戏进行统一处理，并作为模拟更现实的战略互动的一步，这些互动具有竞争性和合作利益。我们的主要贡献是第一种计算固定$ \ epsilon $ - Approximate Nash Equilibria在对抗性团队马尔可夫游戏中具有计算复杂性的算法，在游戏的所有自然参数中都是多项式的，以及$ 1/\ epsilon $。拟议的算法特别自然和实用，它基于为团队中的每个球员执行独立的政策梯度步骤，并与对手侧面的最佳反应同时；反过来，通过解决精心构造的线性程序来获得对手的政策。我们的分析利用非标准技术来建立具有非convex约束的非线性程序的KKT最佳条件，从而导致对诱导的Lagrange乘数的自然解释。在此过程中，我们大大扩展了冯·斯坦格尔（Von Stengel）和科勒（GEB`97）引起的对抗（正常形式）团队游戏中最佳政策的重要特征。

translated by 谷歌翻译

从最佳运输到稳健的维度降低，可以将大量的机器学习应用程序放入Riemannian歧管上的Min-Max优化问题中。尽管在欧几里得的环境中已经分析了许多最小的最大算法，但事实证明，将这些结果转化为Riemannian案例已被证明是难以捉摸的。张等。 [2022]最近表明，测量凸凹入的凹入问题总是容纳鞍点解决方案。受此结果的启发，我们研究了Riemannian和最佳欧几里得空间凸入concove算法之间的性能差距。我们在负面的情况下回答了这个问题，证明Riemannian校正的外部（RCEG）方法在地球上强烈convex-concove案例中以线性速率实现了最后近期收敛，与欧几里得结果匹配。我们的结果还扩展到随机或非平滑案例，在这种情况下，RCEG和Riemanian梯度上升下降（RGDA）达到了近乎最佳的收敛速率，直到因歧管的曲率而定为因素。

translated by 谷歌翻译

最近的多人游戏的理论和应用方面的最新进步，从电子运动到多种子体生成的对抗网络，我们专注于团队零和游戏中的最大优化。在这类游戏中，玩家分为两支队伍，在同一支队内等等，对手团队的相反标志。与TextBook二手零和游戏不同，在我们的类中找到纳什均衡可以被证明是CLS-Hard，即，它不太可能具有用于计算NASH均衡的多项式时间算法。此外，在该广义框架中，使用梯度下降上升（GDA），其乐观变体和额外梯度，我们建立了即使是渐近的最后一次迭代或时间平均收敛到纳什均衡。具体来说，我们展示了一个诱导效用是\ emph {non}的团队游戏系列\ \ emph {non}有吸引力的\ {per-se}混合的纳什均衡，作为底层优化景观的严格鞍点。利用控制理论的技术，我们通过设计局部收敛的修改GDA来补充这些负面结果，以纳入均衡。最后，我们讨论了我们的框架与AI架构的联系，其中与多助理生成对冲网络这样的团队竞争结构。

translated by 谷歌翻译